一个谷歌大神Jeff Dean的演讲,回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术
4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」
谷歌 dean llm transformer moe 2025-05-07 19:33 13
4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」
谷歌 dean llm transformer moe 2025-05-07 19:33 13
阿里巴巴近期开源了混合推理大语言模型(LLM)通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家模型 (MoE) 235B-A22B(总参数 2,350 亿,激活参数 220 亿)和 30B-A3B,以及六款稠密(Dense)模型 0.6B、
根据此前每日经济新闻和财联社等多家媒体的报道,4月30日“小米大模型”公众号消息,小米开源首个为推理(Reasoning)而生的大模型「XiaomiMiMo」,联动预训练到后训练,全面提升推理能力。
思考模式:面对复杂数学推导(如 AIME25 测评 81.5 分)、代码生成(LiveCodeBench 评测 70 分)等任务时,模型会通过多步骤推理输出详细过程,支持最高 38k token 的动态思考预算。开发者可通过/think指令逐轮控制模式,甚至在
为持续推动尖端AI模型的创新发展,英特尔始终与业界领先的创新力量保持深度协作。我们欣然宣布,全新升级的英特尔AI解决方案已全面覆盖PC客户端、边缘计算、智能驾舱等场景,在第一时间为Qwen3系列大模型的发布提供技术支撑。
2025 年 1 月震撼了 AI 领域。看似势不可挡的 OpenAI 以及实力雄厚的美国科技巨头,都被我们可以称之为大语言模型( LLM )领域的“黑马”所震惊。DeepSeek 是一家中国公司,以前鲜为人知,却突然向 OpenAI 发起了挑战。实际上,Dee
阿里Qwen3凌晨开源,正式登顶全球开源大模型王座!它的性能全面超越DeepSeek-R1和OpenAI o1,采用MoE架构,总参数235B,横扫各大基准。这次开源的Qwen3家族,8款混合推理模型全部开源,免费商用。
首先旧事重提:之前就讲过,美国企业还能靠库存撑1个月左右,通胀恶果尚未真正体现,但从5月份开始,各个行业就会开始陆续暴雷。
4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」
谷歌 dean llm transformer moe 2025-04-28 17:40 13
当人工智能从技术奇点迈向商业化深水区,昆仑万维(300418.SZ)正以“海外收入增速最快的中国AI企业”姿态,在全球AI行业竞争格局中勾勒出中国科技企业的独特坐标。这家以“算力-大模型算法-AI应用”为核心布局和引擎的科技公司,用持续迭代的AI技术突破、辐射
发现了吗:过去搜索问题我们会先问百度,现在则会“问问DeepSeek”、“问问夸克”;如果需要做旅游攻略,还可以交给豆包、夸克生成答案。
近日,由非凡产研主办的2025生成式 AI 商业高峰论坛暨第六届非凡奖颁奖礼在上海落幕,该论坛汇聚了全球生成式AI领域的精英与专家,是对过去一年来生成式AI商业落地成果的一次全面检阅。作为国内人工智能领域的领军企业,新壹科技旗下原生AI应用平台秒创以卓越的表现
提起《上古卷轴4:湮灭》,众多玩家脑海中首先浮现的是那些荒诞到恰到好处的喜剧场景、令人捧腹的对话,以及游戏中堪称精神污染的主角造型——缩成一团的脸部、穿透眼睑的眼球,或是自带荧光效果的皮肤。
两个小时前,华为车 BU 在上海「首发」全球第一个商用 L3 智能驾驶系统——华为乾崑 ADS 4。「商用」的意思是面向乘用车消费级市场,而「全球第一个」虽然正式发布,但按照目前国内的风向来看,依然需要等待足够漫长的准备时间。
2025年春节前后,DeepSeek凭借开源多模态模型Janus-Pro与DeepSeek-R1推理模型的发布,以“低成本、高性能”的颠覆性优势横扫全球市场。其开源策略不仅让开发者以API调用成本仅为GPT-4的1/30的极低成本调用顶尖模型,更打破了此前行业
近期发布的LLaMA 4模型引入了混合专家(Mixture of Experts, MoE)架构,旨在提升模型效率和性能。尽管社区对LLaMA 4的实际表现存在一些讨论,但MoE作为一种重要的模型设计范式,继Mistral等模型之后再次受到关注。
4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」
在电商AI领域,一场由新壹科技引领的技术革新正在悄然上演。该公司最新发布的基于MoE(混合专家)架构的电商AI解决方案,正为算力优化、场景应用及内容生产等多个维度带来前所未有的变革。
新壹科技打造的数字人主播解决方案,具备实时互动,可分析观众弹幕调整话术和推荐策略;以及支持按时间段流量高峰切换直播主题,实现多场景切换;此外,其可依反馈调整内容,提供更多样灵活性选择,非常适宜中小商家低成本全天候直播。某服装商家,在非黄金时段,直播销售额突破1
目前我们见到的很多多模态大模型应用是「组合式」的:其中集成了数个单独预训练的组件,例如将视觉编码器连接到 LLM 上并继续进行多模态训练;而在谷歌 Gemin 2.0 推出之后,原生多模态模型(NMM)被认为是正确的方向。
模型 模态 moe laws scalinglaws 2025-04-13 14:23 12